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摘 要 道德 认 知 关注 道德 心理 背后 的 信息 加 工 。 近 年 来 ， 研 究 者 开始 将 计算 模型 应 用 于 道德 
认 知 研究 ， 以 探索 道德 认 知 如 何在 大 脑 中 实现 。 但 目前 研究 者 对 道德 认 知 进行 计算 建 模 的 研 
完 处 于 起 步 阶 段 。 计 算 模型 〈 漂 移 扩散 横 型 、 效 用 模型 、 强 化 学 习 模 型 和 分 层 高 斯 过 得 器 模 
型 ) 在 道德 认 知行 为 和 生理 研究 上 的 运用 量化 了 道德 决策 、 道 德 判断 和 道德 推理 背后 的 认 知 
过 程 和 神经 机 制 。 此 外 ， 这 一 新 进展 对 理解 反 社 会 行为 和 精神 障碍 等 有 所 助 益 。 最 后 ， 计 算 
建 横 有待 完 善 ， 未 来 研究 需要 关注 其 潜在 的 问题 。 
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近日 ， 贺 建 奉 团 队 完 成 了 “ 首 例 基 因 编 辑 婴 儿 诞 生 ” 的 实验 《参见 ，《 参 考 消 息 》2019- 
01-23) 。 对 此 ， 许 多 人 表示 ， 痪 建 奎 的 行为 明显 违反 了 伦理 。 而 且 ， 帝 建 硅 的 道德 品质 也 受 
到 质疑 。 这 一 事件 的 争论 焦点 在 于 伦理 道德 问题 。 目 前 ， 研 究 者 对 道德 认 知 领域 进行 了 大 量 
研究 ， 但 尚未 阐明 解雇 道德 问题 特有 的 认 知 机 制 。 随 着 对 行为 数据 的 计算 建 模 方 法 日 殖 成 
熟 ， 研 究 者 已 开始 将 计算 模型 运用 于 道德 认 知 领域 。 计 算 模 型 以 数学 函数 的 形式 定量 地 描 i 
选项 特征 《如 代价 、 收 益 和 等 待 时 间 〉 如 何 转 换 为 效 价 ， 进 而 影响 决策 (Brown, 2014; 
Charpentier & O’Doherty, 2018; Konovalov, Hu, & Ruff, 2018) 。 最 近 的 研究 已 经 使 用 这 种 方法 
描述 道德 效 价 的 计算 ， 即 道德 问题 的 外 部 特征 〈 如 利益 、 伤 害 等 ) 如何 转 化 为 内 部 效用 ， 以 
及 该 效用 如 何 指导 道德 决策 、 判 断 和 推理 (Hackel & Zaki, 2018; Hutcherson, Bushong, & 
Rangel, 2015; Siegel, Estrada, Crockett, & Baskin-Sommers, 2019; Siegel, Mathys, Rutledge, & 
Crockett, 2018; Yu, Siegel, & Crockett, 2019) 。 本 文 将 回顾 道德 认 知 的 内 涵 、 计 算 模 型 在 道德 
认 知 领域 的 运用 以 及 其 如 何 促进 我 们 对 道德 认 知 过 程 和 相关 神经 机 制 的 理解 。 
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1 道德 认 知 


资 建 奈 事 件 包括 了 (1) 次 建 奎 做 出 基因 编辑 婴儿 的 决策 (decision-making) ; (2) 读 
者 对 其 特定 选择 是 否 符合 道德 做 出 判断 (judgment) ; (3) 进一步 ， 读 者 会 对 其 的 道德 品 
质 做 出 推理 (inference)〉。 以 上 对 应 了 道德 认 知 的 三 个 维度 一 一 道德 决策 、 判 断 和 推理 (本 
文 对 道德 认 知 的 分 类 参照 了 Yu 等 人 《2019) 的 划分 方式 +， 参 见 Yu etal., 2018) 。 它 们 的 定 
义 如 下 : 道德 决策 是 指 人 们 做 出 影响 他 人 利益 的 选择 ， 道 德 判断 是 指 人 们 判断 行为 或 心理 状 
aS CUI. SEES) 是 否 符合 道德 的 过 程 ， 有 时 包含 对 某 种 行为 是 否 应 被 惩罚 或 奖励 的 判 
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Dit; 道德 推理 是 人 们 基于 对 道德 相关 行为 的 观察 而 形成 对 行为 者 道德 品质 〈 如 善 或 恶 ) 的 信 
念 (Yu etal., 2019) 。 以 下 我 们 将 从 这 三 个 维度 展开 对 道德 认 知 的 心理 学 研究 的 介绍 。 


1.1 道德 决策 


道德 决策 涉及 个 体 的 选择 是 否 损害 他 人 的 利益 。 人 有 自 利 倾向 〈Gray, 1987) ， 会 在 诚实 
/不 诚实 、 公 平 /不 公平 和 慷慨 /自私 等 决策 之 间 进 行 权 衡 。 以 诚实 决策 为 例 ， 人 们 会 做 出 诚实 
决策 (放弃 由 不 诚实 带 来 的 额外 收益 ) ， 还 是 不 诚实 决策 (获得 额外 收益 ) ?以 往 研究 指 
出 ， 相 比 诚实 个 体 ， 不 诚实 个 体 放弃 由 不 诚实 决策 获取 的 利益 的 时 间 更 长 (Greene & Paxton, 
2009) 。 这 表明 不 诚实 个 体 在 放弃 不 诚实 利益 的 过 程 可 能 产生 更 多 的 认 知 需求 。 而 且 当 人 们 
做 不 诚实 选择 时 ， 其 心理 和 生理 上 均 会 感到 不 适 (Cohn, Fehr, & Maréchal, 2014; Gachter & 
Schulz, 2016; Gamer, Rill , Vossel, & Gödert, 2006) 。 为 了 减轻 这 种 不 适 感 ， 个 体会 减少 不 道德 
行为 。 此 外 ， 背 外 侧 前 额 叶 皮 层 损伤 的 个 体 对 诚实 问题 的 敏感 性 降低 (Zhu et al., 2014) ， 碍 
仁 核 的 激活 程度 与 个 体 不 诚实 行为 的 历史 呈 负 相关 一 一 个 体 在 当前 不 诚实 决策 中 杏仁 核 激 活 
的 降低 程度 预示 着 下 一 决策 中 不 诚实 的 增加 程度 (Engelmann & Fehr, 2016; Garrett, Lazzaro, 
Ariely, & Sharot, 2016) 。 这 表明 缘 外 侧 前 额 叶 皮层 和 禁 仁 核 对 诚实 决策 的 重要 作用 。 综 上 ， 
决策 往往 需要 在 物质 利益 和 道德 价值 之 间 权 衡 ， 但 当选 择 道德 决策 时 ， 对 物质 利益 的 权重 会 
减 小 ， 人 们 更 加 关心 如 诚实 、 慷 慨 等 道德 价值 。 


1.2 道德 判断 


道德 判断 基于 道德 决策 ， 指 人 们 判断 决策 或 决策 者 应 被 给 予 奖 励 还 是 施加 惩 可 。 电 车 困 
境 是 研究 道德 判断 的 常用 范式 一 一 想象 一 辆 失控 的 电车 即将 撞 死 铁轨 上 的 五 名 工人 ， 决 策 者 
可 以 选择 什么 都 不 做 ， 五 名 工人 会 死亡 ; 或 扳 动 开 关 将 电车 转向 一 个 侧 道 ， 那 里 的 一 名 工人 
会 死亡 (Kamm, 2015) 。 根 据 人 们 对 两 种 选择 的 道德 认可 程度 ，Greene (2007) 提出 道德 判 
断 的 双 过 程 模型 一 一 义务 性 和 功利 性 道德 判断 ， 即 支持 决策 者 什么 都 不 做 是 一 种 义务 性 判断 
(在 义务 论 道德 体系 下 ，“ 不 可 主动 杀人 ”是 一 项 道德 义务 ) ， 而 支持 决策 者 牺牲 一 个 人 拯 
救 五 个 人 是 一 种 功利 性 判断 (在 功利 主义 道德 体系 下 ， 一 人 死亡 比 五 人 死亡 价值 更 高 ); 前 
者 由 情感 驱动 ， 是 快速 、 自 动 的 过 程 ; 后 者 由 认 知 驱动 ， 是 绥 慢 、 需 要 动机 和 认 知 资源 参与 
的 过 程 。 研 究 表 明 ， 在 产生 共 情 的 情况 下 ， 个 体 做 出 义务 性 道德 判断 的 频率 增加 ; 而 个 体 与 
受害 者 接触 较 少 或 倾向 于 理性 思维 方式 时 ， 做 出 功利 性 道德 判断 的 频率 增加 〈 了 Elqayam， 
Wilkinson, Thompson, Over, & Evans, 2017; Greene, 2014) 。 进 一 步 发 现 ， 血 清 素 通过 增加 个 
体 对 伤害 他 人 的 厌恶 ， 降 低 人 们 做 出 功利 性 判断 的 可 能 性 (Crockett, Clark, Hauser, &Robbins, 
2010〉。 相 反 ， 腹 内 侧 前 额 叶 皮层 损伤 的 个 体 做 出 异常 高 的 功利 性 判断 (Koenigs et al., 
2007) , 表明 腹 内 侧 前 额 叶 皮 层 是 直觉 的 、 情 感 系统 的 关键 神经 基质 ， 对 正常 的 道德 判断 至 
关 重 要 。 综 上 ， 伤 害 厌 恶 是 一 种 杂 社 会 情绪 ， 直 接 影 响 道德 判断 和 道德 行为 ， 也 在 治疗 反 社 
会 和 攻击 性 行为 中 的 应 用 有 一 定 的 启示 。 


1. 3 道德 推理 


道德 推理 的 核心 是 由 可 观察 的 、 已 知 的 现象 《如 他 人 的 外 显 行为 ) 推断 内 隐 的 、 未 知 的 
状态 〈 如 他 人 行为 背后 的 动机 或 他 人 的 道德 品质 ) 。 近 年 来 ， 道 德 推理 研究 的 焦点 是 对 行为 
的 评价 ， 即 个 体 指出 影响 他 们 进行 道德 推理 的 特征 。 研 究 表明 ， 负 性 行为 《如 偷 资 ) ERE PE 
行为 《如 捐赠 ) 更 能 代表 个 体 的 道德 品质 (Eisenegger, Naef, Snozzi, Heinrichs, & Fehr, 2010; 
Uhlmann, Pizarro, & Diermeier, 2015) 。 捐 赠 可 能 由 其 他 动机 驱动 〈 如 维护 自己 的 社会 地 
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位 ，， 供 人 推理 的 信息 比较 少 ， 而 偷盗 的 动机 大 多 是 负面 的 (如 利 已 、 反 社会 等 ) ， 从 而 更 
容易 推断 偷盗 者 的 道德 品质 。 这 表明 个 体 进行 道德 推理 时 受信 息 量 高 低 的 影响 。 男 有 研究 表 
明 ， 人 们 通常 给 予 伪 君 子 ( 一 边 襄 责 不 道德 行为 ， 一 边 做 着 不 道德 行为 的 人 〉 负 性 评价 
(Jordan, Sommers, Bloom, & Rand, 2017; Levine, Barasch, Rand, Berman, & Small, 2018) 。 然 
而 ， 人 
ae 这 表明 人 们 对 行为 者 发 出 虚假 的 道德 信号 比较 反感 。 此 外 ， 有 害 的 行为 (如 从 超市 偷 了 

AAS) 比 无 害 但 不 洁 埋 的 行为 “如 者 食 自 己 死去 的 宠物 狗 ) 更 不 道德 ， 但 后 者 中 行为 者 的 

德 品质 更 低下 & Zhu, 2014) 。 这 表明 ， 以 个 体 品 质 为 中 心 的 道德 推理 ， 通 常 比 
道德 准则 更 重要 。 综 上 ， 道 德 推理 是 深思 熟 虑 的 和 直觉 的 过 程 
(Garon, Lavallée, sih & Beauchamp, 2018) 。 


2 计算 模型 


计算 机 的 发 展 与 应 用 加 快 了 计算 建 模 研 究 的 速度 ， 为 科学 研究 提供 了 更 先进 、 严 说 的 手 
段 。 计 算 模型 以 数学 函数 的 形式 ， 将 实验 中 可 观察 到 的 变量 〈 如 刺激 、 结 果 或 过 去 的 经 验 ) 
与 近期 的 行为 联系 起 来 ， 并 对 行为 产生 的 不 同 算法 假设 进行 量化 。 研 究 者 们 通过 将 实验 数据 
与 模型 进行 拟 合 ， 探 究 行为 背后 的 算法 ， 使 用 精确 的 数学 模型 更 好 地 理解 行为 数据 。 


近年 来 ， 计 算 模型 在 心理 学 研究 领域 被 广泛 应 用 ， 如 感知 觉 、 决 策 、 记 忆 和 学 习 等 
面 。Jiang, Summerfield 和 Egner (2016) 将 计算 模型 与 行为 和 神经 成 像 数据 结合 起 来 ， az 
了 视觉 对 象 不 同 的 特征 预期 《和 注意 力 ) 如 何在 驱动 感知 决策 和 神经 表征 的 过 程 中 相互 作 
用 ， 并 表明 视觉 对 象 是 预测 视觉 的 选择 单位 。 简 单 地 说 ， 当 视觉 对 象 的 一 个 特征 在 预期 之 外 
时 ， 这 种 预测 误差 会 传播 到 其 他 特征 ， 使 该 对 象 的 其 他 特征 也 在 预期 之 外 ， 于 是 该 视觉 对 象 
整体 在 预期 之 外 。 此 外 ， 人 们 也 会 从 经 验 中 获得 的 价值 预期 生成 决策 。Meder ÆA (2017) 
提出 个 体 在 决策 过 程 中 同时 表征 一 系列 动态 变化 的 价值 评估 可 以 作为 一 种 灵活 的 选择 机 制 |， 
lense ils 息 与 价值 的 其 他 特征 结合 起 来 ， 从 而 在 变化 的 环境 中 做 出 自 适应 的 决 

o 依据 外 部 环境 或 自身 状态 来 灵活 地 调整 对 选项 所 赋予 的 
价 入 从 而 形成 主观 偏好 。Ai 等 人 (2018) 通过 建立 数学 模型 ， 将 决策 与 记忆 的 动态 提取 过 
A ee ee e a 更 有 价值 的 是 ， 研 究 者 
们 利用 计算 模型 探究 精神 障碍 〈 如 创伤 后 应 激 障碍 ) 和 生理 损伤 〈 如 基底 核 损 伤 ) 患者 的 学 
习 机 制 ， 为 其 恢复 正常 功能 的 治疗 提供 有 力 证 据 (Brown et al., 2018; Zhu, Jiang, Scabini, 
Scabini, & Hsu, 2019) 。 这 些 研究 对 心理 学 以 及 临床 医学 领域 的 未 来 研究 都 有 着 重要 的 启示 
意义 。 


事实 上 ， 道 德 认 知 在 日 常生 活 和 心理 学 中 都 占有 举足轻重 的 地 位 。 为 闸 明 道德 决策 
德 判断 和 道德 推理 的 认 知 过 程 和 神经 机 制 ， 将 计算 建 模 这 一 See cles retin 
也 是 不 可 避免 的 。 以 下 将 回顾 在 道德 认 知 及 其 他 领域 运用 都 比较 广泛 的 计算 模型 一 一 漂移 扩 
散 模型 、 效 用 模型 、 强 化 学 习 模 型 和 分 层 高 斯 过 筛 器 模型 。 


2. 1 漂移 扩散 模型 


漂移 扩散 模型 (Drift Diffusion Models, DDM) 最 早 由 Ratcliff (1978) 开发 ， 它 把 决策 
描述 为 一 个 连续 的 抽样 过 程 ， 即 带 有 噪声 的 信息 从 起 点 累积 到 对 应 于 某 一 选项 的 边界 或 净值 
( 即 标准 ) ， 该 选项 被 选中 (Ratcliff & McKoon, 2008) 。 公 式 如 下 : 
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dy(t) = v(Au):dt +o:dW 


公式 中 y(t) 是 在 时 间 t 时 积累 的 信息 量 ; Au 是 两 个 选项 边界 的 差异 ; v 是 信息 累积 的 速度 
( 即 漂移 率 ); o 是 维 纳 过 程 4W 的 高 斯 噪声 参数 。 此 外 ，DDM 的 参数 还 包括 起 始点 偏 移 
、 边 界 高 度 和 非 决策 时 间 等 。 漂 移 率 代表 偏好 强度 ， 即 个 体 倾 句 于 某 一 选项 的 偏好 越 强 
烈 ， 信 息 辐 该 选项 积累 的 速度 就 越 快 。 每 个 选项 均 有 一 个 边界 ， 边 界 表 示 在 做 出 反应 之 前 必 
须 积 累 的 信息 量 。 而 积累 过 程 是 有 噪声 的 ， 在 任意 时 刻 ， 信 息 可 能 指向 两 个 边界 中 的 一 个 ， 
但 更 多 的 时 候 指 向 正确 的 边界 。 而 非 决 策 成 分 包括 对 刺激 的 编码 〈 该 刺激 将 驱动 决策 过 程 ) 
和 从 刺激 或 记忆 中 提取 构成 决策 基础 的 刺激 的 维度 。DDM 可 以 将 潜在 的 认 知 过 程 体现 在 模型 
不 同 的 成 分 上 上。 例如， 信息 积累 的 速度 、 边 界 高 度 和 非 决 策 过 程 的 持续 时 间 (Mormann, 
Malmaud, Huth, Koch, & Rangel, 2010; Lerche & Voss, 2019; Voss, Rothermund, & Voss, 2004) 。 
而 且 DDM 考虑 了 所 有 的 行为 数据 ， 即 正确 反应 和 错误 反应 的 反应 时 分 布 的 形状 和 位 置 
(Ratcliff, Smith, Brown, & Mckoon, 2016; Ratcliff, Thapar & McKoon, 2004) 。 


地 


过 


DDM 最 初 适用 于 基本 的 知觉 和 记忆 任务 等 的 反应 时 研究 ， 例 如 单项 识别 和 联想 识别 任务 
(Ratcliff, 1978; Ratcliff, et al., 2004) 、 知 觉 任 务 〈 包 括 亮度 、 字 母 、 注 意 定向 等 ) 等 
(Ratcliff, Thapar, & McKoon, 2003; Thapar, Ratcliff, & McKoon, 2003; Smith, Ratcliff, & 
Wolfgang, 2004) 。 近 十 至 十 五 年 间 ，DDM 在 决策 过 程 的 心理 和 神经 机 制 研究 中 变 得 越 来 越 
重要 ， 包 括 感 知觉 决策 、 简 单 的 运动 决策 和 基于 价值 的 决策 等 。Gold 和 Shadlen (2007) [Al 
顾 基 本 的 决策 形成 要 素 如 何在 大 脑 中 实现 ， 从 而 提出 决策 是 一 个 权衡 先 验 、 证 据 和 价值 的 过 
程 ， 并 描述 了 与 关键 决策 要 素 〈 包 括 深 思 熟 虑 和 情感 认同 ) 相对 应 的 具体 数学 运算 。 他 们 也 
揭示 了 感知 任务 的 速度 一 一 正确 性 权衡 和 简单 运动 任务 的 可 变 的 反应 时 的 一 种 基本 机 制 
将 变化 的 决策 变量 (随时 间 票 积 并 存储 证 据 〉 与 固定 标准 进行 比较 的 决策 规则 。 此 外 ， 
Krajbich, Armel 和 Rangel (2010) 也 用 DDM 对 注视 模式 和 选择 之 间 的 关系 进行 定量 预测 。 
结果 发 现 ， 在 DDM 的 简单 扩展 中 ， 注 视点 参与 价值 整合 过 程 ， 可 以 定量 地 解释 注视 点 和 选 
择 之 间 的 各 种 关系 ， 以 及 一 些 相当 大 的 选择 偏差 。 而 且 Krajbich 等 人 发 现 视 觉 注 视 过 程 与 价 
值 比较 过 程 存在 因果 关系 。 即 通过 外 源 性 操纵 相对 注视 时 间 ， 个 体 可 能 对 选择 产生 偏 倚 。 
Eikemo, Biele, Willoch, Thomsen 和 Leknes (2017) 研究 阿片 类 药物 对 健康 人 类 基于 价值 的 决 
策 的 调节 时 ， 用 DDM 拟 合 了 正确 率 和 反应 时 的 数据 ， 从 而 揭示 两 个 决策 子 过 程 预 期 的 双向 
药物 效应 。 总 之 ，DDM 可 以 描述 个 体 如 何 使 用 先 验 、 证 据 和 价值 来 形成 决策 ， 揭 示 多 种 形式 
的 决策 〈 如 知觉 决策 、 简 单 的 运动 决策 和 基于 价值 的 决策 等 ) 背后 的 一 般 原则 。 


2. 2 效用 模型 


DDM 通常 用 于 只 有 两 个 备 选 方案 的 实验 任务 〈 即 二 选 一 ) ， 且 实验 每 个 条 件 的 试 次 数量 
要 多 ， 而 效用 模型 (Utility Models) 可 以 更 好 地 解释 有 更 多 选项 的 情况 。 在 经 济 学 领域 ， 效 
用 函数 用 于 衡量 与 一 组 商品 和 服务 有 关 的 偏好 。 效 用 常常 与 幸福 感 和 满意 度 等 有 关 ， 而 这 些 
难以 直接 观测 。 因 此 ， 经 济 学 家 利用 效用 函数 来 表征 这 些 抽象 的 、 不 可 直接 测量 的 变量 
(Debreu,1954) 。 后 来 ， 效 用 函数 被 用 于 社会 决策 领域 ， 它 将 可 供 选 择 的 选项 的 价值 传达 给 
决策 者 ， 促 使 决策 者 选择 价值 《 即 效用 ) 最 大 的 选项 。 效 用 模型 的 简单 公式 如 下 《假设 有 两 
个 选项 ) : 


AV = U; — Ug 


公式 中 U4 是 选项 A 的 效用 ;Ug 是 选项 B 的 效用 ;AV 是 个 体 的 主观 价值 。 在 每 一 个 试 次 
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中 ， 被 试 对 每 个 选项 有 不 同 的 偏好 ， 当 且 仪 当 被 试 更 喜欢 选项 A 而 不 是 B 时 ，A 的 效用 量 才 
KFB o AIE, SAV > 0 时 个 体 才 会 选择 选项 A。 通常 ， 之 后 会 用 softmax 函数 估计 被 试 的 
选择 概率 。 


在 社会 决策 领域 中 ， 效 用 模型 主要 用 于 探讨 社会 偏好 或 道德 偏好 。 研 究 者 们 将 效用 模型 
与 功能 磁 共 振 成 像 相 结合 ， 研 究 社 会 价值 的 神经 表征 ， 以 评估 他 们 对 自我 和 他 人 利益 的 分 配 
(Liu et al., 2019; Qu, Météreau, Butera, Villeval, & Dreher, 2019; Zhong, Chark, Hsu, & Chew, 
2016)。 这 种 研究 方法 在 一 定 程度 上 解读 了 代表 自我 和 他 人 潜在 利益 的 神经 机 制 ， 对 于 理解 社 
会 决策 至 关 重 要 。 此 外 ，Lopez-Persem, Rigoux, Bourgeois-Gironde, Daunizeau 和 Pessiglione 
(2017) 在 不 同 任务 中 得 到 了 相同 的 效用 函数 ， 并 且 对 选择 的 预测 准确 性 很 高 。 这 表明 了 可 比 
较 的 效用 函数 不 仅 可 以 解释 经 济 选择 ， 而 且 可 以 解释 不 同 的 动机 导向 行为 。 值 得 注意 的 是 ， 
效用 模型 假设 个 体 的 偏好 是 固定 的 。 因 为 如 果 根 据 价 格 或 预算 变化 来 改变 人 们 的 行为 ， 将 无 
法 确定 行为 变化 在 多 大 程度 上 是 由 于 价格 或 预算 变化 还 是 偏好 的 改变 所 致 。 


2.3 强化 学 习 模型 


上 述 的 漂移 扩散 模型 和 效用 模型 被 广泛 应 用 于 决策 领域 ， 而 强化 学 习 模 型 

(Reinforcement Learning Models〉 则 是 解决 决策 中 的 不 确定 性 问题 以 及 各 种 学 习 问题 的 强大 
工具 ， 包 括 与 游戏 相关 的 问题 (如 Tesauro & Gerald, 1995) 、 自 行车 骑 行 问题 (如 Randlev & 
Alstrom, 1998) 和 机 器 人 控制 (如 Riedmiller, Gabel, Hafner, & Lange, 2009) 等 。 许 多 不 同 的 
强化 学 习 算 法 已 经 开发 出 来 解决 这 些 问 题 CSzepesvari, 2010; Sutton & Barto, 1998) 。 学 习 主 
体 通 过 反复 试验 ， 形 成 刺激 与 结果 关联 来 优化 获得 未 来 奖励 的 可 能 性 ， 从 而 灵活 地 选择 获得 
奖励 的 行为 ， 这 一 过 程 被 称 为 强化 学 习 。 强 化 学 习 的 关键 是 预测 误差 ， 即 预期 事件 和 获得 事 
件 之 间 的 差异 ， 然 后 用 于 更 新 对 环境 中 事件 的 信念 (Sutton & Barto, 1998) 。 此 外 ， 强 化 学 
习 模 型 中 最 典型 和 广泛 使 用 的 是 Reescorla-Wagner 模型 ， 该 模型 通过 预测 误差 信号 表征 学 习 ， 
概念 简单 ， 计 算 效 率 高 CRescorla & Wagner, 1972) . Rescorla-Wagner 模型 假设 ， 在 时 间 
时 ， 大 脑 计 算 和 更 新 行为 变量 Or 的 值 如 下 ; 


—= 


Or =On+ OK 


公式 中 a 是 学 习 率 ; AENA, ENTE) k 收 到 的 实际 奖励 与 预期 奖励 之 间 的 差 值 ; 
是 当前 的 期 望 ，Our 是 个 体 对 未 来 奖励 的 期 望 。 强 化 学 习 系统 的 目标 是 学 习 一 种 行为 策 
略 ， 使 个 体 选 择 的 动作 或 行为 获得 最 大 累计 奖赏 值 。 


强化 学 习 模 型 解释 了 基于 行为 和 基于 结果 的 价值 表征 之 间 的 区 别 ， 将 其 与 自动 加 工 与 控 
制 加 工 联 系 起 来 ， 并 精确 地 阐明 了 认 知 和 情感 机 制 对 这 两 种 类 型 的 加 工 的 贡献 。 一 方面 ， 基 
于 模型 的 强化 学 习 激活 查 仁 核 、 海 马 和 有 眶 额 皮 质 等 脑 区 (Andrews-Hanna, Reidler Sepulcre, 
Poulin, & Buckner, 2010; Zsuga, Biro, Papp, Tajti, & Gesztelyi, 2016)。 有 具体 地 ， 查 仁 核 与 腹 侧 纹 
状 体 联合 编码 刺激 《〈 即 预期 结果 之 外 的 事件 ) ， 而 海马 与 腹 侧 纹 状 体 联 合 编码 上 下 文 《〈 即 结 
果 的 偶然 性 ) 。 此 外 ， 眶 额 皮层 由 海马 和 杏仁 核 驱动 ， 将 与 奖励 相关 的 信息 整合 到 上 下 文 杠 
架 中 。 因 此 ， 眶 额 皮 层 将 提供 关于 预期 奖励 的 信息 ， 从 而 计算 出 奖励 预期 《Wallis, 2007) 。 
另 一 方面 ， 无 模型 强化 学 习 也 能 够 激活 腹 侧 纹 状 体 〈Zsuga et al., 2016) 。 那 么 ， 眶 额 皮层 提 
供 的 奖励 预期 信息 反馈 给 无 模型 系统 ， 基 于 腹 侧 纹 状 体 的 功能 连通 性 ， 使 腹 侧 纹 状 体 可 以 将 
基于 模型 的 奖励 信息 与 无 模型 的 奖赏 预测 误差 相 结 合 ， 计 算 腹 侧 纹 状 体 发 出 的 价值 信号 。 所 
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以 ， 基 于 模型 的 强化 学 习 和 无 模型 强化 学 习 并 非 相互 分 离 ， 而 是 具有 功能 连通 性 。 
2.4 分 层 高 斯 过 得 器 模型 


强化 学 习 模型 为 简单 的 学 习 和 决策 行为 及 其 神经 基础 的 功能 提供 了 强大 的 解释 。 但 是 在 现 
实 中 ,涉及 许多 刺激 和 动作 的 情况 下 , 这些 算 法 的 学 习 效 率 低 ,不 能 及 时 捕捉 人 类 学 习 的 速度 ， 
而 造成 这 种 差异 的 一 个 原因 是 人 类 利用 了 现实 世界 任务 中 国有 的 结构 来 简化 学 习 问 题 

(Gershman & Niv, 2010) 。 所 以 ， 改 进 强化 学 习 模型 是 不 可 避免 的 。Mathy, Daunizeau, Friston 
和 Stephan (2011) 受到 Behrens, Woolrich, Walton 和 Rushworth (2007) 开创 性 工作 的 启发 ， 
提出 一 个 分 层 高 斯 过 筛 器 (Hierarchical Gaussian Filter, HGF) 模型， 用 于 在 多 种 形式 的 不 确定 
性 (如 环境 波动 和 感知 不 确定 性 ) 下 的 个 体 学 习 。 该 模型 包含 了 一 个 状态 层次 结构 ， 这 些 状 态 
在 时 间 上 演化 为 高 斯 随机 游 动 ‘Gaussian random walks) ， 每 一 个 游 动 〈 除 第 一 级 水 平 外 ) 的 
幅度 大 小 由 层次 结构 的 下 一 个 最 高 水 平 决 定 。 水 平 之 间 的 耦合 由 参数 控制 。 这 些 参数 编码 了 环 
境 中 关于 高 阶 结构 的 先 验 信念 , 使 模型 能 够 解释 学 习 中 的 个 体 差 异 包 括 个体 间 差异 以 及 路 时 间 
的 个 体 差 异 。HGF 可 以 加 工 离散 状态 和 连续 状态 ， 并 且 可 以 解释 环境 事件 与 感知 状态 之 间 的 
确定 性 和 概率 关系 , 能 够 推导 出 控制 环境 中 突 发 事件 的 所 有 隐藏 状态 的 后 验 期 望 的 封闭 式 更 新 
方程 ， 使 得 HGF 计算 效率 很 高 ， 能 够 实时 学 习 。 这 些 更 新 方程 的 形式 类 似 于 Rescorla-Wagner 
模型 ， 为 强化 学 习 理 论 提 供 了 一 个 贝 叶 斯 类 比 。Rescorla-Wagner 模型 的 结构 是 : 当前 期 望 = 前 
一 期 望 + 学 习 率 x 预测 误差 ，HGF 的 更 新 方程 形式 如 下 图 1: 


(kK) 一 (k-1) (k) (k) (k-1) 
H = M + o, (u 一 (以 )) 
m — m 

(0 (k) K) (DY 
Ku} +@ = 

O = ël 4 gh) Ko eS a (u M, ) 1 
M3 = M; 0 3 (k-1) cp +o (k—1) kuf +o E 
=> e 20, ke o ren 

当前 期 望 前 一 期 望 a 
TIE 预测 误差 


图 1 分 层 高 斯 过 筛 器 的 更 新 方程 与 Rescorla-Wagner 模型 结构 的 对 比 。 A “KP 是 前 一 后 验 概率 ; u O 是 


当前 新 的 后 验 概率 (具体 参数 参见 Mathy et al., 2011) o 


Mathy 等 人 (2014) 进 一 步 曾 述 HGF 如 何 为 加 工 感知 中 的 不 确定 性 提供 一 种 通用 的 方法 ， 
将 HGF 的 层次 结构 扩展 到 任意 数量 ， 探 讨 了 如 何 通 过 更 新 方程 中 编码 的 变 分 自由 能 的 最 小 化 
来 适应 各 种 形式 的 不 确定 性 。 总之,， HGF 为 理解 正常 和 非 正常 学 习 提 供 了 一 个 新 的 基础 , 它 将 
强化 学 习 置 于 一 个 通用 的 贝 叶 斯 方法 中 ， 从 而 将 其 与 概率 论 中 的 最 优 原 则 联系 起 来 。 它 为 解决 
行为 者 的 感知 不 确定 性 提供 了 一 个 有 原则 的 、 灵 活 的 、 有 效 的 同时 又 直观 的 框架 。 


HGF 是 一 种 学 习 模型 ， 它 的 特点 是 假定 了 个 体 进行 社会 学 习 时 ， 形 成 关于 他 人 印象 的 过 
程 发 生 在 多 个 认 知 层面 上 。 在 这 里 以 两 个 认 知 层面 : 外 显 和 内 隐 层 面 为 例 ， 外 显 可 观测 的 层面 
是 他 人 的 具体 行为 ， 内 隐 (hidden〉 层面 是 观察 者 内 心 ( 或 说 头脑 里 ) 对 他 人 的 印象 。HGF 可 
以 计算 给 出 外 显 层面 的 信息 ( 即 每 次 观察 到 他 人 的 具体 行为 ) 如 何 推动 内 隐 层 面 的 表征 的 变化 ， 
即 给 出 了 一 种 “生成 模型 "。Siegel A (2018) 选用 HGF 来 探究 个 体 道 德 推理 的 计算 基础 及 其 
时 间 动 态 ， 就 是 因为 它 能 解释 内 隐 印 象 和 外 显 观察 到 行为 的 关系 ， 以 说 明 外 显 行为 观测 如 何 推 
动 印 象形 成 。 综 上 ， 借 助 实用 的 方法 来 开发 人 类 认 知 的 计算 模型 ， 这 些 模 型 基于 可 靠 的 概率 原 
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理 ， 可 以 解释 日 党 思维、 推理 和 学 习 的 丰富 性 和 复杂 性 。 


3 计算 模型 在 道德 认 知 领域 的 运用 


计算 模型 可 以 估计 道德 认 知 过 程 中 内 隐 的 、 不 可 观测 到 的 潜在 成 分 (反映 认 知 过 程 的 参 
数 ) 。 研 究 者 可 以 解释 和 预测 这 些 潜在 成 分 的 具体 认 知 加 工 过 程 ， 发 展 与 完善 道德 认 知 的 心 
理学 理论 。 计 算 模型 可 以 连接 道德 认 知 和 道德 神经 科学 ， 通 过 不 同 层面 的 计算 模型 ， 更 加 全 
面 地 解释 和 预测 道德 认 知 的 神经 机 制 。 例 如 ， 研究 者 利用 计算 模型 结合 神经 影像 学 ， 揭示 心 
理学 理论 中 潜在 的 、 不 能 直接 观察 到 的 、 与 行为 有 关 的 神经 活动 过 程 和 认 知 加 工 成 分 ， 如 强 
化 学 习 中 的 关键 变量 一 一 奖赏 预测 误差 (Sven, Pauli, Peter, & John, 2017) 。 本 部 分 将 回顾 上 
面 介绍 的 漂移 扩散 模型 、 效 用 模型 、 强 化 学 习 模 型 和 分 层 高 斯 过 筛 器 模型 如 何 运 用 于 道德 认 
知 领 域 。 


3. 1 计算 模型 在 道德 决策 中 的 运用 


人 们 在 面 对 不 同 价值 的 选择 时 ， 并 不 总 是 依据 利益 最 大 化 原则 ， 选 择 价值 更 高 的 选项 
(Behrens, Hunt, & Rushworth, 2019; Crockett, Kurth-Nelson, Siegel, Dayan, & Dolan, 2014; 
Crockett et al., 2015) 。 有 研究 指出 ， 人 们 考虑 到 他 人 的 利益 ， 而 做 出 偏离 自己 利益 最 大 化 选 
择 的 程度 与 其 道 首 德行 为 呈正 相关 (Hutcherson et al., 2015; Yu et al., 2019) 。 


Hutcherson SEA (2015) 让 被 试 决定 是 否 接受 给 自己 和 对 家 的 分 钱 方案 ， 探 究 人 们 的 慷 
慨 决策 。 在 DDM 中 ， 每 个 试 次 的 选择 都 基于 动态 变化 的 随机 相对 决策 值 信 号 一 一 来 估计 相 
较 于 默认 方案 ， 对 分 配方 案 的 预期 。 i ee th 被 斌 会 做 出 反应 
(如 果 是 正 值 ， 接 受 分 配方 案 ; 反之 ， 则 拒绝 分 配方 案 ) ， 反 应 时 等 于 信息 累积 时 间 与 非 决 
策 时 间 之 和 。 结 果 发 现 ， 对 他 人 的 慷 ed ei, 与 漂移 率 呈 
IE (Hutcherson et al., 2015; Konovalov & Krajbich, 2019) 。 此 外 ， 人 慷慨 误差 〈 错 误 地 选择 
给 予 他 人 更 多 金钱 ) 的 比率 明显 高 于 自私 误差 〈 错 误 地 选择 保留 更 多 金钱 ) Sane 这 表明 
当 个 体 获 得 的 奖赏 比 别 人 获得 的 奖赏 更 有 价值 时 ， 他 /她 的 慷慨 行为 可 能 反映 的 是 噪声 干扰 ， 
而 不 是 真正 的 亲 社 会 偏好 。 在 神经 层面 ， 个 体 在 加 工 自 己 利 益 的 过 程 中 ， Ri 
和 腹 侧 纹 状 体 激 活 更 强 ， 而 在 加 工 他 人 利益 的 过 程 中 ， 腹 内 侧 前 额 叶 皮层 、 右 侧 颗 顶 联 合 区 
和 模 前 叶 激 活 更 强 。 这 表明 加 工 自 己 利 益 和 他 人 利益 在 大 脑 中 是 各 自 独 立 表 征 的 。 而 且 腹 内 
前 额 叶 皮 层 将 关于 目 己 利益 4 和 他 人 利益 组 合成 一 个 整体 值 ， 并 通过 DDM 的 算法 整合 分 配 

案 的 总 金额 来 做 出 选择 。 通 过 DDM 对 决策 过 程 的 随机 相对 决策 值 信号 、 漂 移 率 、 边 界 高 
te. 起 始点 偏 移 量 和 非 决 策 时 间 成 分 参数 的 拟 合 而 推导 和 测试 出 ， 与 自私 决策 相 比 ， 在 做 出 
慨 决策 前 ， 与 选项 信息 累积 和 价值 计算 相关 脑 区 更 活跃 。 这 些 研究 结果 揭示 了 道德 价值 表 

背后 的 神经 计算 机 制 ， 并 表明 可 能 通过 调节 腹 内 侧 前 额 叶 皮 层 的 道德 价值 表征 来 促进 杀 社 


全 性 


Krajbich, Hare, Bartling, Morishima， 和 Fehr (2015) 通过 DDM 发 现 社会 决策 〈 自 私 或 慷 
{BED 的 速度 和 一 致 性 可 以 通过 从 非 社会 决策 〈 如 食物 选择 ) 中 得 到 的 模型 参数 来 预测 ， 表 明 
这 两 个 领域 的 决策 可 能 有 着 相同 的 加 工 模式 。 此 外 ， 对 于 社会 决策 是 单一 的 比较 过 程 还 是 双 
重 过 程 〈 直 觉 的 和 深思 熟 虑 的 ) 问题 ，Chen 和 Krajbich (2018) 提出 归 因 于 直觉 的 行为 可 以 
作为 DDM 过 程 的 起 点 偏差 ， 这 各 起 点 偏差 类 似 于 贝 叶 斯 框架 & 中 的 先 验 偏差。 在 独裁 者 博 研 
任务 中 ， 被 试 对 如 何在 自己 和 对 家 之 间 分 配 金 钱 做 出 二 元 决策 。 结 果 发 现 ， 在 时 间 压 力 下 ， 
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亲 社 会 个 体 变 得 更 亲 社 会 ， 而 在 时 间 延 迟 下 ， 亲 社会 个 体 数 量变 少 。 这 些 发 现 有 助 于 统一 关 
于 社会 决策 认 知 加 工 过 程 的 争论 。 


Crockett 等 人 《〈2014) 证 被 试 决定 是 否 给 自己 和 他 人 施加 电击 以 换取 利益 〈 获 得 金钱 数 
量 随 电击 数量 增加 而 增加 ) ， 来 探 完 人 们 的 道德 决策 。Crockett 等 人 在 效用 模型 中 使 用 了 一 
一 选项 与 默认 选项 之 间 的 金钱 差异 和 电击 差异 、 损 失 厌 恶 参数 和 伤害 厌恶 参数 ， 量 化 了 被 试 
给 自己 和 他 人 带 来 的 痛 理 的 相对 价值 。 当 伤害 厌恶 参数 等 于 0 时 ， 决 策 者 有 最 小 的 伤害 大 
恶 ， 将 会 接受 任何 程度 的 电击 来 增加 自己 的 收益 ， 当 伤害 厌恶 参数 接近 1 时 ， 决 策 者 有 最 大 
的 伤害 厌恶 ， 将 会 减少 自己 的 收益 来 避免 电击 。 之 后 ， 利 用 softmax 函数 将 逐次 试验 的 主观 
价值 转化 为 选择 概率 。 结 果 发 现 即 使 个 体 的 决策 完全 是 匿名 的 (未 来 不 会 受到 不 利 的 评判 或 
RET) ， 他 们 也 更 关心 他 人 的 痛苦 ， 而 不 是 自己 的 痛苦 。 而 且 这 种 对 他 人 痛苦 的 关心 与 做 出 
影响 他 人 的 决策 时 反应 较 慢 有 关 ， 与 道德 决策 过 程 中 的 深思 熟 虑 一 致 。 计 算 模型 确定 了 这 种 
亲 社 会 倾向 的 精确 边界 ， 对 于 理解 人 类 道德 决策 具有 重要 意义 。 


之 后 ，Crockett 等 人 借助 效用 模型 研究 了 道德 决策 中 的 生理 和 神经 机 制 。 结 果 发 现 ， 血 

清 素 水 平 的 升 高 ， 增 加 了 伤害 厌恶 和 在 决策 时 考虑 的 时 间 ， 而 多 巴 胺 水 平 的 升 高 则 恰恰 相反 

(Crockett, et al., 2015) 。 血 清 素 和 多 巴 胺 在 调节 道德 行为 中 的 这 些 独特 作用 ， 对 社会 功能 障 
碍 的 潜在 治疗 具有 重要 意义 。 道 德 偏 好 较 强 的 个 体 通过 伤害 他 人 获取 利益 时 背 侧 纹 状 体 激活 
较 低 ， 而 外 侧 前 额 叶 皮层 编码 了 这 种 罪恶 感 (Crockett, Siegel, Kurth-Nelson, Dayan, & Dolan, 
2017) 。 这 表明 伤害 厌恶 这 种 道德 偏好 可 能 会 影响 指导 我 们 做 出 选择 的 价值 观 。 值 得 注意 的 
是 ， 效 用 模型 中 的 参数 会 随 着 不 同 的 道德 决策 问题 (如 诚实 、 公 平和 慷慨 而 有 所 变化 

(Gao et al., 2018; Hu et al., 2018; Sáez, Zhu, Set, Kayser, & Hsu, 2015; Strombach et al., 2015; 
Zhu et al., 2014) 。 


相 较 于 传统 研究 方法 ， 漂 移 扩 散 模 型 和 效用 模型 展示 了 计算 模型 的 价值 ， 并 为 道德 决策 
的 本 质 提 供 了 新 的 见解 。 它 们 都 很 好 地 解释 和 预测 了 自己 利益 和 他 人 利益 的 权重 对 道德 决策 
的 影响 。 相 较 于 非 正 式 模 型 ， 漂 移 扩 散 模 型 和 效用 模型 中 的 参数 虽然 会 随 着 道德 决策 范式 的 
变化 而 变化 ， 但 研究 者 们 对 其 有 统一 的 认识 使 得 这 些 计算 模型 的 解释 力 更 强 ， 更 有 利于 它们 
应 用 于 更 多 的 领域 中 。 


3.2 计算 模型 在 道德 判断 中 的 运用 


在 社会 中 ， 由 于 某 些 行为 会 对 其 他 个 体 产生 影响 ， 人 们 进而 会 判断 这 些 行为 对 他 人 是 有 
益 或 有 害 的 。Hackel 和 Zaki (2018) 采取 改编 的 独裁 者 博弈 实验 范式 ， 即 在 每 轮 游戏 中 ， 捐 
赠 者 《高 财富 和 低 财富 ) 选择 与 接受 者 分 享 20% 或 50% 的 捐款 ， 而 接受 者 获得 捐赠 者 分 享 的 
金额 点 数 。 接 受 者 随机 地 与 捐赠 者 (2 名 高 财富 和 2 名 低 财 富 ) 配对 ， 并 反复 选择 与 哪 名 捐 
赠 者 互动 。 因 此 ， 接 受 者 同时 了 解 每 个 捐赠 者 的 慷慨 程度 〈 分 享 20% 捐 款 的 慷慨 程度 为 0， 
分 享 50% 捐 款 的 慷慨 程度 为 1) 和 奖励 价值 20% 或 50%x 捐 赠 金额 点 数 ) 。 接 下 来 ， 接 受 者 
完成 一 项 互惠 任务 ， 与 每 位 捐赠 者 分 享 金额 点 数 作为 回报 。Hackel 和 Zaki 利用 强化 学 习 模 型 
对 接受 者 的 互动 选择 进行 了 拟 合 ， 其 中 ， 奖 赏 预测 误差 反映 了 捐赠 者 的 奖赏 值 和 慷慨 程度 。 
例如 ， 捐 赠 者 先 分 享 捐赠 的 20%， 后 分 享 50%， 就 会 使 接受 者 产生 一 个 慷慨 预测 误差 ( 即 捐 
曾 者 表现 得 比 接受 者 预期 的 更 慷慨 ) 。 接 受 者 对 慷慨 的 捐赠 者 回报 更 多 (Nowak & Sigmund, 
2005) ， 这 是 因为 接受 者 对 捐赠 者 进行 了 一 个 积极 正面 的 道德 判断 ， 选 择 对 其 进行 奖励 ， 因 
此 强化 了 自己 的 捐赠 行为 。 在 强化 学 习 之 后 ， 人 们 不 仅 喜 欢 慷慨 的 社交 伙伴 ， 也 喜欢 那些 提 
供 大 量 物质 奖励 的 人 (Feldmanhall, Otto, & Phelps, 2018; Hackel, Doll, & Amodio, 2015; Hackel & 
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Zaki, 2018)。 由 此 可 以 发 现 ， 道 德 判 断 是 可 以 动态 学 习 的 ， 并 引发 了 后 续 研 究 者 在 道德 判断 
和 亲 社 会 行为 的 学 习 过 程 的 深入 探讨 。 


Yu 等 人 (2019) 在 效用 模型 和 强化 学 习 模型 的 基础 上 ， 提 出 一 个 以 伤害 厌恶 为 核心 的 计 
算 模型 ， 将 道德 决策 、 判 断 和 推理 的 研究 问题 统一 起 来 ， 为 揭示 道德 认 知 的 机 制 提供 了 独特 
的 见解 。 在 道德 判断 方面 ， 个 体 在 进行 道德 判断 时 ， 对 行为 者 的 责备 程度 与 其 选择 伤害 他 人 
而 产生 的 额外 痛苦 呈正 相关 ， 但 与 其 选择 伤害 他 人 而 产生 的 额外 利益 呈 负 相关 。 这 表明 ， 尽 
管 个 体会 因 损害 他 人 利益 责备 行为 者 ， 但 所 获得 的 利益 证 明了 部 分 伤害 是 合理 的 〈Crockett， 
et al., 2010; Xie, Yu, Zhou, Sedikides, & Vohs, 2014) 。 总 之 ， 在 道德 判断 中 ， 获 得 利益 和 伤害 
他 人 对 行为 者 受 责备 程度 的 影响 相反 。 首 先 ， 人 们 认为 伤害 他 人 多 于 伤害 自己 获得 利益 ， 或 
者 仅 通过 伤害 他 人 获得 利益 ， 都 会 增加 和 人们 对 不 道德 行为 者 的 责备 程度 。 其 次 ,个 体 自己 的 
伤害 厌恶 偏好 调节 获得 利益 和 伤害 他 人 对 责备 的 影响 ， 所 以 那些 更 不 愿 使 他 人 痛苦 的 个 体 更 
关心 伤害 而 不 是 收益 ， 在 判断 行为 者 应 该 被 责备 或 奖励 时 ， 会 做 出 更 极端 的 责备 判断 。 综 
上 ， 当 行为 者 产生 的 负面 结果 影响 他 人 时 ， 基 于 伤害 厌恶 ， 会 让 判断 者 予以 更 多 的 惩罚 ， 和 希 
望 能 够 降低 行为 者 伤害 他 人 的 行为 。 


除了 伤害 厌恶 ， 道 德 判断 也 会 涉及 对 不 同 规模 和 可 能 性 的 结果 进行 评估 ， 例 如 电车 困境 
中 的 获救 人 数 和 获救 可 能 性 。Shenhav 和 Greene (2010) 让 被 试 评 佑 牺牲 一 条 生命 来 拯救 一 
个 更 大 的 群体 的 道德 可 接受 性 ， 这 个 群体 的 规模 和 不 采取 行动 而 死亡 的 可 能 性 是 不 确定 的 ， 
并 基于 简单 的 强化 学 习 模 型 对 数据 进行 拟 合 分 析 。 结 果 发 现 ， 腹 内 侧 前 额 叶 皮层 对 生死 道德 
判断 中 预期 值 的 主观 表征 进行 编码 ， 而 腹 侧 纹 状 体 对 预期 道德 价值 特别 敏感 。 同 样 ， 右 侧 前 
脑 岛 对 死亡 概率 特别 敏感 。 这 表明 ， 对 影响 他 人 生死 依 关 的 复杂 道德 决策 进行 判断 时 依赖 于 
适应 更 基本 的 、 涉 及 物质 奖励 的 自 利 决策 的 神经 回路 。Shenhav 和 Greene (2014) 进一步 利 
用 基于 模型 的 强化 学 习 和 无 模型 的 强化 学 习 对 数据 进行 拟 合 分 析 ， 发 现 自动 加 工 和 控制 加 工 
对 道德 判断 的 影响 之 间 的 关键 分 离 ， 且 由 不 同 的 神经 结构 辅助 。 查 仁 核 激 活 反 映 了 个 体 对 有 
害 的 功利 主义 行为 的 厌 亚 和 责备 程度 。 在 这 种 综合 的 道德 判断 中 ， 腹 内 侧 前 额 叶 皮层 优先 参 
与 相对 功利 主义 和 情感 评价 加 工 〈Shenhav & Greene, 2014) 。 查 仁 核 和 腹 内 侧 前 额 叶 皮层 的 
功能 连接 随 着 任务 中 情绪 输入 所 起 的 作用 而 变化 ， 在 纯 功 利 主义 判断 中 最 低 ， 在 纯情 绪 判 断 
中 最 高 (Shenhav & Greene, 2010, 2014) 。 这 些 发 现 表 明 禁 仁 核 对 所 判断 的 行为 提供 了 情感 
评估 ， 而 腹 内 侧 前 额 叶 皮层 则 将 这 种 信号 与 对 预期 结果 的 功利 主义 评估 结合 起 来 ， 得 出 经 过 
深思 熟 虑 的 道德 判断 的 结果 。 总 之 ， 研 究 者 对 道德 认 知 的 神经 基础 的 探索 发 现 ， 在 道德 判断 
过 程 中 ， 大 脑 区 域 始终 处 于 激活 状态 〈Crockett et al., 2017; Shenhav & Greene, 2010) 。 进 一 
步 ， 计 算 模 型 可 以 精确 地 指定 在 道德 判断 过 程 中 由 大 脑 区 域 提 供 的 计算 。 这 促进 了 道德 神经 
科学 的 发 展 ， 并 加 强 了 观察 到 的 大 脑 和 行为 变化 之 间 的 联系 。 


3. 3 计算 模型 在 道德 推理 中 的 运用 


道德 推理 是 一 个 宽泛 的 概念 ， 是 个 体 指出 影响 他 们 进行 道德 评价 的 行为 特征 (如 行为 的 
结果 和 行为 者 的 意图 等 ) 的 过 程 ， 不 一 定 是 对 善 与 恶 的 推理 。 一 切 通过 社会 学 习 去 推断 他 人 
特征 《如 个 体 知觉 和 印象 形成 等 ) 都 可 以 看 作 道德 推理 〈Feldmanhall, Dunsmoor, et al., 2018; 
Hackel et al., 2015; Joiner, Piva, Turrin, & Chang, 2017; Suzuki et al., 2012) 。 在 社会 互动 中 ， 推 
断 他 人 的 意图 Cintention) 是 形成 道德 印象 的 一 个 基本 问题 。 而 道德 推理 的 一 个 基本 挑战 是 人 
类 如 何 了 解 他 人 的 特征 来 预测 自己 的 决策 行为 。 研 究 表明 ， 攻 击 者 的 道歉 不 仅 会 降低 受害 者 
的 反应 性 攻击 ， 还 会 改变 攻击 者 对 冒犯 者 的 内 隐 态 度 (Beyens, Yu, Han, Zhang, & Zhou, 
2015) 。 因 此 ， 某 行为 的 道德 性 很 大 程度 上 取决 于 行为 者 的 意图 ， 对 他 人 行为 背后 的 意图 进 
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行 推断 是 道德 判断 和 道德 推理 重要 的 环节 。 


Siegel 等 人 《〈2018) 采用 分 层 高 斯 过 筛 器 来 探 完 个 体 道 德 推理 的 计算 基础 及 其 时 间 动 
态 。 被 试 〈 正 常 大 学 生 ) 预测 并 观察 了 两 名 行为 者 的 一 系列 选择 一 一 是 否 对 另 一 个 人 施加 痛 
昔 的 电击 以 换取 金钱 ， 评 估 他 们 对 行为 者 道德 品质 的 印象 以 及 不 确定 性 。 个 体形 成 关于 行为 
者 道德 品质 的 信念 由 概率 分 布 表示 ， 其 中 均值 描述 了 每 个 试 次 后 关于 行为 者 的 信念 ， 并 且 方 
差 描 述 了 该 信念 的 不 确定 性 。 信 念 随 着 时 间 的 更 新 表征 为 高 斯 随机 游 劲 ， 其 更 新 大 小 由 表示 
信念 波动 的 个 体 差异 决定 。 结 果 表 明 ， 个 体 对 不 道德 行为 者 的 道德 信念 比 对 道德 行为 者 的 更 
具 不 确定 性 ， 并 伴 有 更 快 的 学 习 速 度 。 这 种 机 制 可 以 使 个 体 灵活 地 更 新 关于 他 人 的 信念 。 当 
最 初 的 负面 道德 印象 被 证 明 不 准确 时 ， 这 种 机 制 可 以 促进 宽恕 。 


表 1 计算 模型 在 道德 认 知 研究 中 的 应 用 总 结 


道德 认 知 
道德 决策 道德 判断 道德 推理 
漂移 扩散 模型 Chen & Krajbich, 2018 
Hutcherson et al., 2015 
Krajbich et al., 2015 
效用 模型 Crockett et al., 2014, 2015, Yu et al., 2019 Yu et al., 2019 
2017 
Gao et al., 2018 
Hu et al., 2018 
Saez et al., 2015 
Strombach et al., 2015 
Yu et al., 2019 
Zhu et al., 2014 
强化 学 习 模型 Yu et al., 2019 Hackel, et al., 2015 Hackel et al., 2015 
Hackel & Zaki, 2018 Joiner et al., 2017 
Shenhav & Greene, 2010, Suzuki et al., 2012 
2014 Yu et al., 2019 


Yu et al., 2019 


a} I i as Siegel et al., 2018, 
型 2019 
VE: Yu SA (2019) 在 效用 模型 和 强化 学 习 模型 的 基础 上 提出 一 个 以 伤害 厌恶 为 核心 的 计算 模型 ， 


将 道德 决策 、 判 断 和 推理 的 研究 问题 统一 起 来 。 


之 后 ，Siegel 等 人 (2019) 同样 采用 分 层 高 斯 过 得 器 研究 男性 服刑 人 员 接触 暴力 对 伤害 
学 习 的 影响 。 结 果 发 现 接触 暴 力 的 个 体形 成 了 整体 的 主观 社会 印象 ， 并 将 这 些 印 象 转化 为 社 
会 决策 ， 但 会 破坏 其 道德 推理 能 力 〈 认 为 道德 行为 者 不 值得 信任 ， 反 而 认为 不 道德 行为 者 更 
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值得 信任 ) ， 从 而 导致 更 多 的 不 道德 行为 。 这 是 因为 人 们 错误 地 把 不 好 的 特征 归于 好 人 会 破 
坏 现 有 的 关系 ， 阻 碍 建立 新 的 关系 (Johnson, Blumstein, Fowler, & Haselton, 2013) 。 因 此 ， 
准确 地 推断 他 人 道德 品质 的 能 力 对 健康 的 社会 功能 至 关 重 要 。 从 道德 决策 到 道德 推理 是 一 个 
社会 学 习 的 过 程 ， 探 究 其 认 知 和 神经 机 制 对 于 矫正 服刑 人 员 的 认 知 、 训 练 自 闭 症 和 抑郁 症 等 
精神 障碍 群体 适应 正常 的 社会 功能 等 有 重要 意义 。 


Suzuki 等 人 (2012) 利用 强化 学 习 模 型 ,证 明了 个 体 模仿 他 人 决策 包括 两 个 层次 的 学 习 信 
号 。 在 模仿 学 习 中 , 个 体 同时 呈现 两 种 不 同 的 预测 误差 信号 一 一 模仿 他 人 的 奖赏 预测 误差 和 行 
为 预测 误差 。 个 体 模仿 他 人 决策 时 ， 腹 内 侧 前 额 叶 皮层 来 模仿 他 人 的 特征 以 生成 预测 ， 并 使 用 
背 内 侧 前 额 叶 皮 层 和 背 外 侧 前 额 叶 皮 层 来 辅助 行为 变化 以 改进 预测 。Hackel 等 人 (2015) EFI 
用 强化 学 习 模 型 揭示 了 个 体 在 学 习 任 务 中 通过 反馈 编码 了 奖赏 和 特征 信息 。 除 了 特定 的 奖赏 加 
工 外 ， 特 征 信息 〈 如 慷慨 或 自私 等 ) 通过 反馈 进行 编码 ， 并 且 在 决策 过 程 中 ,特征 信息 可 以 支 
配 奖励 信息 。 这 两 种 学 习 方式 都 与 腹 侧 纹 状 体 的 预测 误差 信号 有 关 。 对 他 人 的 印象 也 可 以 通过 
基于 反馈 的 工具 学 习 形 成 (Hackel et al., 2015) 。 人 简单 举例 阐述 ， 某 位 同学 与 大 家 分 享 资源 ， 
可 能 不 仅 会 收 到 回报 , 还 被 认为 有 慷慨 、 值 得 信任 与 合作 等 特质 。 于 是 她 /他 在 其 他 情况 下 也 会 
受到 重视 ， 比 如 更 愿 与 其 合作 。 此 外 ，Joiner ÆA (2017) 讨论 了 自我 参照 和 他 人 参照 的 奖赏 
预测 误差 ， 这 些 误差 与 多 个 大 脑 区 域 的 激活 有 关 《〈 如 纹 状 体 、 前 扣 带 皮层 、 前 额 叶 和 里 顶 联 合 
区 等 ) ， 有 效 地 使 用 强化 学 习 模 型 来 调节 社会 学 习 。 计 算 模 型 的 应 用 促进 探索 社会 学 习 背 后 的 
神经 机 制 ， 并 增强 了 对 道德 推理 的 解释 力 。 


4 不 足 与 展望 


道德 行为 和 不 道德 行为 在 生活 中 普遍 存在 ， 但 对 其 认 知 过 程 和 神经 机 制 的 研究 仍 处 于 起 
步 阶段 。 本 文 回顾 了 道德 认 知 的 三 个 维度 〈 道 德 决 策 、 判 断 和 推理 ) 以 及 几 个 在 道德 认 知 领 
域 广泛 运用 的 计算 模型 〈 漂 移 扩 散 模型 、 效 用 模型 、 强 化 学 习 模型 和 分 层 高 斯 过 得 器 模 
型 )， 并 梳理 这 些 计算 模型 如 何曾 明道 德 心理 的 认 知 过 程 和 神经 机 制 。 值 得 注意 的 是 ， 漂 移 
扩散 模型 、 效 用 模型 、 强 化 学 习 模 型 和 分 层 高 斯 过 筛 器 模型 与 道德 决策 、 判 断 和 推理 并 不 是 
一 一 对 应 的 关系 。 计 算 模 型 更 多 地 是 与 数据 类 型 和 实验 设计 相关 ， 而 心理 过 程 上 则 可 能 没有 
这 样 的 对 应 。 例 如 ， 漂 移 扩 散 模 型 与 强化 学 习 模 型 结合 使 用 ， 应 用 于 道德 认 知 的 研究 中 ， 这 
可 以 作为 研究 者 们 将 来 研究 的 方向 。 相 较 于 传统 研究 方法 和 非 正 式 模 型 ， 计 算 模型 准确 地 描 
述 道德 决策 、 判 断 和 推理 的 认 知 过 程 ， 以 及 其 潜在 的 神经 关联 。 此 外 ， 研 究 者 使 用 计算 模型 
来 研究 道德 领域 的 问题 有 助 于 解决 关于 道德 认 知 中 伤害 的 中 心地 位 的 争论 (Schein & Gray, 
2015, 2018) 。 


由 于 本 文 以 道德 认 知 领域 为 中 心 ， 所 以 无 法 详细 讨论 使 用 上 述 计 算 模型 进行 研究 的 其 他 
领域 ， 例 如 ， 资 源 分 配 〈Konovalov et al., 2018) 、 精 神 障 但 (Chen, Takahashi, Nakagawa, 
Inoue, & Kusumi, 2015; Rothkirch, Tonn, Köhler, & Sterzer, 2017) 等 。 对 这 些 领 域 的 研究 也 明显 
受益 于 计算 模型 的 使 用 。 注 意 ， 这 里 所 讨论 的 特定 模型 可 能 不 会 完全 地 适用 于 所 有 类 型 的 社 
会 行为 ， 因 此 可 能 需要 开发 不 同 的 计算 方法 。 本 文 着 重 梳理 了 几 个 在 道德 认 知 领域 广泛 应 用 
的 计算 模型 以 及 它们 如 何 应 用 于 道德 认 知 领 域 。 所 以 ， 研 究 中 也 有 其 他 能 够 解释 道德 认 知 问 
题 的 模型 我 们 没 顾及 到 ， 如 多 项 加 工 树 模 型 〈 预 先 规定 了 不 同 的 过 程 如 何 作为 实验 输入 和 行 
为 输出 ， 主 要 用 于 对 道德 两 难 问题 的 研究 ; 刘 媛 媛 ， 丁 一 ， 芝 凯 平 ， 胡 传 鹏 ，2019;， Cameron, 
Payne, Sinnott-Armstrong, Scheffer, & Inzlicht, 2017; Gawronski, Conway, Armstrong, Friesdorf, 
& Hütter, 2018) 和 部 分 观测 者 马尔 科 夫 决策 过 程 模型 《是 贝 叶 斯 模型 的 一 种 ， 主 要 用 于 探讨 
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社会 情境 下 的 信念 学 习 ; Khalvati et al., 2019) 等 。 目 前 ， 没 有 一 个 单一 的 计算 模型 可 以 为 道 
德 认 知 提供 一 个 明确 和 统一 的 机 制 。 正 如 简单 地 为 机 器 人 提供 一 组 “如 果 一 一 那么 ”的 规则 
来 适应 特定 的 情况 非常 困难 ， 因 为 机 器 人 可 能 发 现 自己 处 于 无 限 多 的 情况 中 。 从 单一 研究 中 
得 出 的 参数 也 不 能 作为 适用 于 道德 认 知 的 各 个 组 成 部 分 的 数字 权重 的 最 终结 论 。 


前 面 的 部 分 已 经 介绍 了 使 用 计算 模型 来 研究 道德 认 知 的 一 些 优点 ， 这 里 强调 与 这 种 方法 
相关 的 潜在 问题 。 首 先 ， 使 用 不 同 的 模型 来 获得 价值 、 信 念 或 选择 过 程 会 存在 一 定 的 风险 一 
一 模型 的 选择 (而 不 是 行为 本 映 ) 决定 了 研究 者 研究 的 重点 。 例 如 ， 用 于 解释 信念 学 习 或 偏 
好 的 模型 《和 任务 ) 不 同 ， 至 少 驱 动 这 些 行为 的 过 程 中 的 一 些 差 异 反 映 了 不 同 计算 模型 的 使 
用 。 道 德 认 知 领域 的 进一步 友 展 将 会 需要 更 统一 的 方法 来 对 不 同类 型 的 认 知 进行 建 模 。 这 个 
问题 可 以 通过 信任 的 相关 研究 来 说 明 ， 信 任 主要 表现 为 一 个 学 习 问 题 一 一 由 于 信任 他 人 使 自 
己 容 易 受 到 他 人 的 背叛 ， 人 们 必须 解决 潜在 利益 与 至 少 三 种 其 他 担忧 之 间 的 冲突 : 损失 大 
恶 、 不 公平 厌恶 和 背叛 厌恶 (Bohnet & Zeckhauser 2004) 。 很 少 有 研究 考察 了 在 信任 不 
信任 决策 中 这 些 厌恶 背后 的 神经 计算 机 制 ， 这 些 机 制 可 以 用 混合 模型 对 这 些 不 同 的 关注 点 分 
配 权 重 来 研究 (Nave, Camerer, & McCullough, 2015) 。 


其 次 ， 虽 然 计算 模型 可 以 促进 研究 者 对 道德 认 知 的 理解 和 预测 ， 但 它们 提供 对 潜在 认 
知 、 学 习 和 过 程 的 看 法 有 限 。 一 些 模型 适合 行为 和 大 脑 活动 ， 这 在 很 大 程度 上 是 因为 它们 能 
够 灵活 地 适应 许多 不 同 模式 的 数据 。 因 此 ， 实 证 研究 应 该 努力 提供 证 据 ， 证 明 模 型 的 潜在 参 
数 实际 上 反映 了 可 以 通过 实验 干预 选择 性 的 改变 (Hill et al., 2017) 。 最 终 ， 好 的 模型 是 那些 
能 够 构建 关于 驱动 道德 认 知 研究 的 模型 ， 正 如 经 典 理论 一 样 ， 但 是 现在 有 了 一 个 更 加 定量 和 
机 械 论 的 焦点 。 本 质 上 ， 所 有 的 模型 都 是 错误 的 ， 但 有 些 是 有 用 的 ， 可 以 为 道德 认 知 理论 做 
出 贡献 。 


最 后 ， 由 于 模型 构建 过 程 本 身 是 比较 多 样 和 灵活 的 ， 因 此 如 何 能 够 保证 计算 模型 不 被 洲 
用 和 误 用 也 是 非常 重要 的 。Lee A (2019) 提出 了 一 种 技术 和 实践 方法 ， 包 括 预 注册 模 
型 、 提 供 模型 并 在 探索 性 模型 开发 后 注册 、 对 模型 进行 详细 的 评估 和 注册 建 模 报 告 ， 使 心理 
建 模 更 加 透明 、 可 信 、 有 效 和 稳定 。 构 建 适 合计 算 建 模 的 范例 可 能 需要 在 现实 世界 的 丰富 性 
与 方法 论 的 严谨 性 之 则 进行 权衡 。 识 别 一 个 对 行为 或 大 脑 活 动 提供 良好 匹配 的 计算 模型 并 不 
能 保证 所 识别 的 模型 是 最 好 或 最 准确 的 模型 (Mars, Shea, Kolling, & Rushworth, 2012) 。 此 
外 ， 认 知 计算 建 模 的 一 个 重要 且 经 常 被 忽视 的 方面 是 根据 观测 数据 模拟 候选 模型 (Palminteri, 
Wyart, & Koechlin, 2017) 。 尽 管 存在 这 些 限制 ， 但 是 计算 模型 有 益 于 定量 测量 不 依赖 于 自我 
报告 的 道德 认 知 的 个 体 差 异 ， 而 自我 报告 在 测量 具有 强烈 社会 赞许 性 成 分 的 特征 方面 可 能 不 
太 可 靠 。 此 外 ， 模 型 参数 可 作为 生物 学 和 现象 学 的 中 间 水 平 或 认 知 表 型 ， 描 述 特定 临床 或 亚 
临床 和 精神 状态 如 何 影响 道德 认 知 和 行为 ， 如 抑郁 症 (Chen et al., 2015; Rothkirch et al., 
2017) 、 精 神 分 裂 症 (Valton, Romaniuk, Steele, Lawrie, & Seriés, 2017) 和 人 格 障碍 (Tyrer, 
Reed, & Crawford, 2015) 等 。 因 此 ， 使 用 计算 模型 不 仅 极 大 地 促进 我 们 对 人 类 道德 的 理解 ， 
而 且 也 逐渐 地 运用 于 计算 精神 病 学 和 其 他 疾病 ， 和 希望 减少 人 类 在 疾病 方面 的 痛苦 。 


5 结论 


描述 道德 决策 、 判 断 和 推理 的 计算 模型 代表 了 量化 道德 认 知 以 及 客观 指导 理解 道德 行为 
的 认 知 过 程 的 第 一 步 。 这 些 计算 模型 以 数学 方程 的 形式 描述 了 道德 选择 的 输入 如 何 转化 为 输 
出 。 计 算 模型 的 优势 在 于 它们 提供 了 一 种 通用 的 数学 语言 ， 可 以 用 来 比较 不 同道 德 认 知 研究 
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的 效果 大 小 。 随 着 越 来 越 多 的 研究 应 用 这 些 计算 模型 ， 研 究 者 们 将 其 汇总 ， 可 以 上 升 到 理论 
层面 (如 描述 如 何 结合 道德 决策 、 判 断 和 推理 成 分 为 道德 认 知 领域 完善 某 种 理论 或 提出 新 的 
理论 ) ， 也 可 以 为 临床 领域 提供 经 验 和 帮助 (如 计算 精神 病 学 ) 。 目 前 ， 计 算 模型 在 道德 认 
知 领域 的 研究 刚刚 起 步 ， 相 对 少数 的 模型 可 以 捕捉 到 道德 认 知 的 大 部 分 方面 ， 或 者 ， 人 类 道 
德 的 丰富 性 和 复杂 性 可 能 无 法 归结 为 一 组 可 管理 的 数学 方程 ， 这 是 有 待 研究 者 们 解决 的 问 


题 。 


T 
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Abstract: Moral cognition focuses on the processing of information underlying the moral 
behavior. Recently, researchers have begun to apply computational modelling to moral 
cognition as to explore how moral cognition is represented in the brain. However, the 
research on the computational modeling of moral cognition is still at its infancy. The 
application of computational modelling (the Drift Diffusion Models, Utility Models, 
Reinforcement Learning Models and Hierarchical Gaussian Filter) in the behavioral and 
physiological studies of moral cognition quantified the cognitive processes and neural 


mechanisms underlying moral decision-making, moral judgment, and moral inference. In 


addition, this new approach could help to understand antisocial behavior and mental 


disorders. Finally, the computational modeling needs to be improved and future research need 


to pay attention to the potential limitations. 
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